隨著信息技術(shù)的逐漸發(fā)展,數(shù)據(jù)出現(xiàn)指數(shù)型的增長(zhǎng)。我們知道數(shù)據(jù)的種類(lèi)很多,分類(lèi)方式也有很多種,有以用戶對(duì)象來(lái)分類(lèi)的,如政務(wù)數(shù)據(jù)、行業(yè)數(shù)據(jù)、個(gè)人數(shù)據(jù);有以數(shù)據(jù)存儲(chǔ)形式分類(lèi)的,如先前推文介紹過(guò)的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。還有一種分類(lèi)方法,則是將數(shù)據(jù)分為冷數(shù)據(jù)、溫?cái)?shù)據(jù)和熱數(shù)據(jù),難道數(shù)據(jù)還有溫度?
數(shù)據(jù)為什么要區(qū)分“冷”和“熱”?
根據(jù)數(shù)據(jù)被訪問(wèn)使用的頻次,數(shù)據(jù)可以被分為熱數(shù)據(jù)、溫?cái)?shù)據(jù)和冷數(shù)據(jù)。顯然數(shù)據(jù)肯定是沒(méi)有溫度的,那么為什么會(huì)有“冷”、“熱”的說(shuō)法呢?
熱數(shù)據(jù)
熱數(shù)據(jù)是需要被計(jì)算節(jié)點(diǎn)頻繁訪問(wèn)的在線類(lèi)數(shù)據(jù),比如可以是半年以?xún)?nèi)的數(shù)據(jù),用戶經(jīng)常會(huì)查詢(xún)它們,適合放在數(shù)據(jù)庫(kù)中存儲(chǔ),比如MySql、MongoDB和HBase。
冷數(shù)據(jù)
冷數(shù)據(jù)是指離線類(lèi)不經(jīng)常訪問(wèn)的數(shù)據(jù),用于災(zāi)難恢復(fù)的備份或者因?yàn)橐袷胤梢?guī)定必須保留一段時(shí)間,比如企業(yè)備份數(shù)據(jù)、業(yè)務(wù)與操作日志數(shù)據(jù)、話單與統(tǒng)計(jì)數(shù)據(jù)。通常會(huì)存儲(chǔ)在性能較低、價(jià)格較便宜的文件系統(tǒng)里,適用于離線分析,比如機(jī)器學(xué)習(xí)中的模型訓(xùn)練或者大數(shù)據(jù)分析。
圖:冷數(shù)據(jù)和熱數(shù)據(jù)的區(qū)別,來(lái)源于微博@聯(lián)想企業(yè)級(jí)服務(wù)
總結(jié)一下,熱數(shù)據(jù)就是訪問(wèn)量多的數(shù)據(jù),而冷數(shù)據(jù)則基本沒(méi)有什么存在感和訪問(wèn)量。比如在訂單管理中,熱數(shù)據(jù)就是指3個(gè)月以?xún)?nèi)的訂單數(shù)據(jù),查詢(xún)時(shí)效性較高;而冷數(shù)據(jù)就是指1年前的訂單數(shù)據(jù),只會(huì)有偶爾的查詢(xún)需求,其他時(shí)間幾乎不會(huì)被用到。
其實(shí)區(qū)分冷熱數(shù)據(jù)的根本目的,在于能節(jié)省數(shù)據(jù)存儲(chǔ)成本和提升在線數(shù)據(jù)查詢(xún)性能,即控制成本。
為什么這么說(shuō)?因?yàn)橥ǔG闆r下,為了支持熱數(shù)據(jù)的操作特性,需要有較好的硬件配置,比如高性能CPU、大內(nèi)存、SSD硬盤(pán)等等。隨著時(shí)間的推移,系統(tǒng)里會(huì)積累越來(lái)越多的歷史數(shù)據(jù),如果依然采用高配置機(jī)器來(lái)存放這些使用頻率非常低的數(shù)據(jù),勢(shì)必會(huì)帶來(lái)非常高的成本。當(dāng)然,如果數(shù)據(jù)量很小或者不計(jì)成本,那完全不需要考慮冷熱區(qū)分,采用一個(gè)單體系統(tǒng)就可以應(yīng)對(duì)所有事情了。
數(shù)據(jù)如何冷熱分離?
相信看到這里,大家對(duì)冷數(shù)據(jù)、溫?cái)?shù)據(jù)和熱數(shù)據(jù)的概念已經(jīng)很清晰了,那么有人可能會(huì)好奇,對(duì)于不同“溫度”的數(shù)據(jù),平時(shí)是如何存儲(chǔ)的呢?
由于冷數(shù)據(jù)和熱數(shù)據(jù)的訪問(wèn)頻次不同,就導(dǎo)致了在數(shù)據(jù)庫(kù)搭建的各自不同:熱數(shù)據(jù)因?yàn)樵L問(wèn)頻次需求大,效率要求高,所以就近計(jì)算和部署;冷數(shù)據(jù)訪問(wèn)頻次低,效率要求慢,可以做集中化部署,而基于大規(guī)模存儲(chǔ)池里,可以對(duì)數(shù)據(jù)進(jìn)行壓縮、去重等降低成本的方法。
總結(jié)成一句話就是:熱數(shù)據(jù)就近計(jì)算,冷數(shù)據(jù)集中存儲(chǔ)。
從存儲(chǔ)形式來(lái)說(shuō),一般情況冷數(shù)據(jù)存儲(chǔ)在磁帶、光盤(pán),目前發(fā)展比較好的是藍(lán)光光盤(pán)。熱數(shù)據(jù)一般存放在SSD中,存取速度快,而溫?cái)?shù)據(jù)可以存放在7200轉(zhuǎn)的硬盤(pán)。
目前比較常見(jiàn)的冷熱分離方案是將冷熱數(shù)據(jù)分離到兩套不同的系統(tǒng),這兩套系統(tǒng)擁有不同的存儲(chǔ)特性、訪問(wèn)方式等,從而在保證熱數(shù)據(jù)訪問(wèn)性能的同時(shí),將冷數(shù)據(jù)的成本降低下來(lái)。
相比單體系統(tǒng)而言,將冷熱數(shù)據(jù)分離到兩個(gè)系統(tǒng)中,必然會(huì)帶來(lái)整體的復(fù)雜性,需要在性能、成本、復(fù)雜度等因素之間做的一個(gè)權(quán)衡。實(shí)踐中,通常需要結(jié)合具體的業(yè)務(wù),考慮下面幾件事:
冷熱數(shù)據(jù)系統(tǒng)的選型
確定冷熱數(shù)據(jù)分割線
如何進(jìn)行數(shù)據(jù)的遷移
如何應(yīng)對(duì)跨系統(tǒng)的查詢(xún)
數(shù)據(jù)作為企業(yè)的核心資產(chǎn)之一雖然已受到廣泛的認(rèn)可和重視,但是分析技術(shù)的落后尚不具備充分提取冷數(shù)據(jù)價(jià)值的能力,因此很多公司對(duì)利用率高的熱數(shù)據(jù)重視而忽視冷數(shù)據(jù),這也符合常規(guī)企業(yè)成本的考量。隨著數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)的進(jìn)步,歷史數(shù)據(jù)的可用價(jià)值將得到顯著的提升,這樣冷數(shù)據(jù)的存儲(chǔ)需求會(huì)迎來(lái)快速增長(zhǎng)。隨著技術(shù)發(fā)展,會(huì)有越來(lái)越多的系統(tǒng)走向冷熱分離系統(tǒng),從而簡(jiǎn)化整體的復(fù)雜性,在業(yè)務(wù)層表現(xiàn)為統(tǒng)一的訪問(wèn)方式。
更多資訊,請(qǐng)關(guān)注“成都吉福匯”,服務(wù)熱線:400 028 4366/028-85538251